Đề xuất (Proposal)¶

Nhóm 13¶

Thành viên¶

  1. Nguyễn Minh Sơn - 20110713
  2. Lê Anh Nhân - 20110689
  3. Đỗ Minh Dũng - 20110620
  4. Nguyễn Thái Ngọc Tân - 20110719

Phần 1: Giới thiệu¶

Tên đề tài: Phân tích tình hình dịch bệnh Covid-19¶

Đại dịch covid-19 xuất hiện từ cuối năm 2019, cho đến nay nó đã lan rộng ra hầu hết các quốc gia và vùng lãnh thổ trên thế giới, gây thiệt hại nghiêm trọng về mọi mặt. Mặc dù đã có vaccine phòng ngừa covid-19 nhưng dịch bệnh này vẫn còn hoành hoành ở nhiều quốc gia, liên tục xuất hiện các biến thể mới nguy hiểm. Vì thế, nhóm đã chọn tập dữ liệu liên quan đến vấn đề này để phân tích tình hình dịch bệnh covid-19.

Nguồn dữ liệu chính¶

Nhóm em đã tham khảo các nguồn dữ liệu về dịch bệnh Covid-19 và đã chọn được tập dữ liệu mà nhóm cảm thấy phù hợp.

Link dataset: COVID-19 dataset Dataset coronavirus pandemic

Nhóm sẽ phân tích tình hình dịch bệnh covid-19 dựa trên số ca mắc, số ca tử vong và số lượng người đã tiêm phòng vaccine, sau đó sẽ đưa ra các nhận xét cũng như dự đoán về đại dịch Covid-19 này ở thời gian tới.

Các biến trong dataset nhóm sử dụng: [

    continent,
    location,
    date,
    total_cases, 
    new_cases,
    total_cases_per_million,
    new_cases_per_million,
    total_deaths,
    new_deaths,
    total_deaths_per_million,
    new_deaths_per_million,
    total_vaccinations,
    people_vaccinated,
    people_fully_vaccinated,
    people_fully_vaccinated_per_hundred,
    population

]

Câu hỏi nghiên cứu chung¶

  1. Dân số có phải là nguyên nhân dẫn tới việc gia tăng số ca mắc ở các quốc gia ?

  2. Có phải các nước có nền kinh tế phát triển, thu nhập cao thì dịch bệnh Covid-19 sẽ ít nghiêm trọng hơn so với các nước có nền kinh tế phát triển kém hơn, thu nhập thấp hơn không ?

  3. Khi vaccine được phổ biến, điều đó có giúp ích cho việc chống đại dịch Covid-19 trên thế giới?

  4. Biến thể Omicron xuất hiện vào 24/11/2021 có gây nguy hiểm không ? So sánh với biến thể Delta xuất hiện vào khoảng tháng 12/2020 ?

Phần 2: Dữ liệu¶

1. Mô tả dữ liệu¶

Link github chứa thư mục data: https://github.com/NMS1010/P4DA_Final_Project

File dữ liệu: owid-covid-data.csv

Giải thích các biến sử dụng

Biến Mô tả
continent Tên châu lục
location Tên nước
date Ngày quan sát
total_cases Tổng số ca mắc covid 19 đã được xác nhận
new_cases Số ca mắc mới covid 19 theo ngày đã được xác nhận
total_cases_per_million Tổng số ca mắc covid 19 đã được xác nhận trên 1,000,000 người
new_cases_per_million Số ca mắc mới covid 19 theo ngày đã được xác nhận trên 1,000,000 người
total_deaths Tổng số ca covid 19 tử vong đã được xác nhận
new_deaths Số ca covid 19 tử vong mới theo ngày đã được xác nhận
total_deaths_per_million Tổng số ca covid 19 tử vong đã được xác nhận trên 1,000,000 người
new_deaths_per_million Số ca covid 19 tử vong mới theo ngày đã được xác nhận trên 1,000,000 người
total_vaccinations Tổng số liều vaccine
people_vaccinated Tổng số người tiêm ít nhất một mũi vaccine
people_fully_vaccinated Tổng số người tiêm đủ liều vaccine theo quy định
people_fully_vaccinated_per_hundred Tổng số người tiêm đầy đủ vaccine theo quy định mỗi 100 người
population Tổng dân số

2. Exploration Data Analysis¶

Import library¶

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots

Đọc và làm sạch dữ liệu¶

In [2]:
covid_df = pd.read_csv('../data/owid-covid-data.csv')
Lấy các biến cần thiết¶
In [3]:
covid_df = covid_df[['continent', 'location', 'date', 'total_cases',  'new_cases', 'total_cases_per_million', 'new_cases_per_million', 'total_deaths', 'new_deaths', 'total_deaths_per_million', 'new_deaths_per_million', 'total_vaccinations', 'people_vaccinated', 'people_fully_vaccinated', 'people_fully_vaccinated_per_hundred', 'population']]
Thay đổi tên các biến¶
In [4]:
covid_df.columns = ['Continent', 'Location', 'Date', 'TotalCases',  'NewCases', 'TotalCases_per_million', 'NewCases_per_million', 'TotalDeaths', 'NewDeaths', 'TotalDeaths_per_million', 'NewDeaths_per_million', 'TotalVaccinations', 'PeopleVaccinated', 'PeopleFullyVaccinated', 'PeopleFullyVaccinated_per_hundred', 'Population']
Kiểm tra dữ liệu¶
In [5]:
covid_df.isnull().sum()
Out[5]:
Continent                              9956
Location                                  0
Date                                      0
TotalCases                             3033
NewCases                               3193
TotalCases_per_million                 3791
NewCases_per_million                   3951
TotalDeaths                           20875
NewDeaths                             20839
TotalDeaths_per_million               21620
NewDeaths_per_million                 21584
TotalVaccinations                    121132
PeopleVaccinated                     123339
PeopleFullyVaccinated                126085
PeopleFullyVaccinated_per_hundred    126085
Population                             1075
dtype: int64
Các khu vực không có tên châu lục¶
In [6]:
t = covid_df[covid_df['Continent'].isna()]
t.Location.unique()
Out[6]:
array(['Africa', 'Asia', 'Europe', 'European Union', 'High income',
       'International', 'Low income', 'Lower middle income',
       'North America', 'Oceania', 'South America', 'Upper middle income',
       'World'], dtype=object)

Các giá trị trong cột Location của tập dữ liệu là tên các khu vực trên thế giới, bao gồm cả tên các quốc gia. Vì một số khu vực trong cột Location cũng chính là tên châu lục nên giá trị tương ứng trong cột Continent đã nhận giá trị NaN. Do vậy, nhóm sẽ chuẩn hoá các giá trị NaN này thành 0

Các khu vực không có thông kê dân số¶
In [7]:
t = covid_df[covid_df['Population'].isna()]
t.Location.unique()
Out[7]:
array(['International', 'Northern Cyprus'], dtype=object)

Một số khu vực trên thế giới như International, Northern Cyprus chưa có thống kê về dân số trong tập dữ liệu, nên nhóm sẽ bỏ qua 2 khu vực này.

In [8]:
covid_df = covid_df[~covid_df['Population'].isna()]
Clean Data¶

Còn lại những cột có dữ liệu bị để trống (NULL) vì vào thời điểm quan sát thì có thể chưa xảy ra ca tử vong, chưa có ca mắc hoặc chưa có vaccine để tiêm phòng...

Vì thế, nhóm sẽ làm sạch dữ liệu của các cột nhận giá trị NaN khác bằng cách điền số 0

In [9]:
covid_df = covid_df.replace('', np.nan).fillna(0)
Thời gian thu thập dữ liệu về dịch bệnh¶
In [10]:
covid_world_df = covid_df[covid_df.Location == 'World']
print(f"Dữ liệu về dịch bệnh Covid-19 được thu thập từ ngày {covid_world_df.Date.min()} tới ngày {covid_world_df.Date.max()}")
Dữ liệu về dịch bệnh Covid-19 được thu thập từ ngày 2020-01-22 tới ngày 2022-03-05
In dữ liệu¶
In [11]:
covid_df
Out[11]:
Continent Location Date TotalCases NewCases TotalCases_per_million NewCases_per_million TotalDeaths NewDeaths TotalDeaths_per_million NewDeaths_per_million TotalVaccinations PeopleVaccinated PeopleFullyVaccinated PeopleFullyVaccinated_per_hundred Population
0 Asia Afghanistan 2020-02-24 5.0 5.0 0.126 0.126 0.0 0.0 0.000 0.000 0.0 0.0 0.0 0.00 39835428.0
1 Asia Afghanistan 2020-02-25 5.0 0.0 0.126 0.000 0.0 0.0 0.000 0.000 0.0 0.0 0.0 0.00 39835428.0
2 Asia Afghanistan 2020-02-26 5.0 0.0 0.126 0.000 0.0 0.0 0.000 0.000 0.0 0.0 0.0 0.00 39835428.0
3 Asia Afghanistan 2020-02-27 5.0 0.0 0.126 0.000 0.0 0.0 0.000 0.000 0.0 0.0 0.0 0.00 39835428.0
4 Asia Afghanistan 2020-02-28 5.0 0.0 0.126 0.000 0.0 0.0 0.000 0.000 0.0 0.0 0.0 0.00 39835428.0
... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...
166321 Africa Zimbabwe 2022-03-01 236871.0 491.0 15694.959 32.533 5395.0 0.0 357.470 0.000 7901360.0 4365856.0 3399915.0 22.53 15092171.0
166322 Africa Zimbabwe 2022-03-02 237503.0 632.0 15736.835 41.876 5396.0 1.0 357.536 0.066 7910740.0 4368726.0 3402434.0 22.54 15092171.0
166323 Africa Zimbabwe 2022-03-03 237503.0 0.0 15736.835 0.000 5396.0 0.0 357.536 0.000 7921113.0 4372925.0 3406482.0 22.57 15092171.0
166324 Africa Zimbabwe 2022-03-04 238739.0 1236.0 15818.731 81.897 5397.0 1.0 357.603 0.066 7930621.0 4374896.0 3408609.0 22.59 15092171.0
166325 Africa Zimbabwe 2022-03-05 239019.0 280.0 15837.284 18.553 5397.0 0.0 357.603 0.000 0.0 0.0 0.0 0.00 15092171.0

165251 rows × 16 columns

Hình thái dữ liệu¶

In [12]:
covid_df.shape
Out[12]:
(165251, 16)

10 quan sát đầu tập dữ liệu¶

In [13]:
covid_df.head(10)
Out[13]:
Continent Location Date TotalCases NewCases TotalCases_per_million NewCases_per_million TotalDeaths NewDeaths TotalDeaths_per_million NewDeaths_per_million TotalVaccinations PeopleVaccinated PeopleFullyVaccinated PeopleFullyVaccinated_per_hundred Population
0 Asia Afghanistan 2020-02-24 5.0 5.0 0.126 0.126 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 39835428.0
1 Asia Afghanistan 2020-02-25 5.0 0.0 0.126 0.000 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 39835428.0
2 Asia Afghanistan 2020-02-26 5.0 0.0 0.126 0.000 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 39835428.0
3 Asia Afghanistan 2020-02-27 5.0 0.0 0.126 0.000 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 39835428.0
4 Asia Afghanistan 2020-02-28 5.0 0.0 0.126 0.000 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 39835428.0
5 Asia Afghanistan 2020-02-29 5.0 0.0 0.126 0.000 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 39835428.0
6 Asia Afghanistan 2020-03-01 5.0 0.0 0.126 0.000 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 39835428.0
7 Asia Afghanistan 2020-03-02 5.0 0.0 0.126 0.000 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 39835428.0
8 Asia Afghanistan 2020-03-03 5.0 0.0 0.126 0.000 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 39835428.0
9 Asia Afghanistan 2020-03-04 5.0 0.0 0.126 0.000 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 39835428.0

10 quan sát cuối tập dữ liệu¶

In [14]:
covid_df.tail(10)
Out[14]:
Continent Location Date TotalCases NewCases TotalCases_per_million NewCases_per_million TotalDeaths NewDeaths TotalDeaths_per_million NewDeaths_per_million TotalVaccinations PeopleVaccinated PeopleFullyVaccinated PeopleFullyVaccinated_per_hundred Population
166316 Africa Zimbabwe 2022-02-24 234967.0 378.0 15568.801 25.046 5390.0 2.0 357.139 0.133 7858794.0 4351621.0 3384590.0 22.43 15092171.0
166317 Africa Zimbabwe 2022-02-25 235467.0 500.0 15601.930 33.130 5392.0 2.0 357.271 0.133 7870399.0 4355217.0 3388940.0 22.45 15092171.0
166318 Africa Zimbabwe 2022-02-26 235803.0 336.0 15624.193 22.263 5393.0 1.0 357.338 0.066 7876942.0 4357938.0 3390880.0 22.47 15092171.0
166319 Africa Zimbabwe 2022-02-27 235803.0 0.0 15624.193 0.000 5393.0 0.0 357.338 0.000 7882244.0 4359872.0 3392578.0 22.48 15092171.0
166320 Africa Zimbabwe 2022-02-28 236380.0 577.0 15662.425 38.232 5395.0 2.0 357.470 0.133 7890951.0 4362150.0 3396655.0 22.51 15092171.0
166321 Africa Zimbabwe 2022-03-01 236871.0 491.0 15694.959 32.533 5395.0 0.0 357.470 0.000 7901360.0 4365856.0 3399915.0 22.53 15092171.0
166322 Africa Zimbabwe 2022-03-02 237503.0 632.0 15736.835 41.876 5396.0 1.0 357.536 0.066 7910740.0 4368726.0 3402434.0 22.54 15092171.0
166323 Africa Zimbabwe 2022-03-03 237503.0 0.0 15736.835 0.000 5396.0 0.0 357.536 0.000 7921113.0 4372925.0 3406482.0 22.57 15092171.0
166324 Africa Zimbabwe 2022-03-04 238739.0 1236.0 15818.731 81.897 5397.0 1.0 357.603 0.066 7930621.0 4374896.0 3408609.0 22.59 15092171.0
166325 Africa Zimbabwe 2022-03-05 239019.0 280.0 15837.284 18.553 5397.0 0.0 357.603 0.000 0.0 0.0 0.0 0.00 15092171.0

Phần 3: Kế hoạch phân tích dữ liệu¶

1. Các biến kết quả (phản hồi, Y) và dự đoán (giải thích, X) sử dụng để trả lời câu hỏi¶

  1. Dân số có phải là nguyên nhân dẫn tới việc gia tăng số ca mắc ở các quốc gia ? (X: Population, Location) (Y:TotalCases)

  2. Có phải các nước có nền kinh tế phát triển, thu nhập cao thì dịch bệnh Covid-19 sẽ ít nghiêm trọng hơn so với các nước có nền kinh tế phát triển kém hơn, thu nhập thấp hơn không ? (X: Location, TotalCases, TotalDeaths) (Y: Tỉ lệ tử vong)

  3. Khi vaccine được phổ biến, điều đó có giúp ích cho việc chống đại dịch Covid-19 trên thế giới? (X: Date, PeopleFullyVaccinated, NewCases, NewDeaths) (Y: Tỉ lệ tử vong)

  4. Biến thể Omicron xuất hiện vào 24/11/2021 có gây nguy hiểm không ? So sánh với biến thể Delta xuất hiện trước đó ? (X: Date, NewCases, NewDeaths) (Y: Tỉ lệ tử vong)

2. Các nhóm so sánh¶

  • Nhóm so sánh: Tỉ lệ tử vong của biến thể Omicron so với Delta
  • Nhóm so sánh: Tỉ lệ tử vong của dịch Covid-19 trên thế giới trước và sau khi tiêm Vaccine
  • Nhóm so sánh: Tỉ lệ tử vong của dịch Covid-19 ở nhóm nước phát triển và kém phát triển hơn

3. Phân tích dữ liệu sơ bộ¶

Thông tin các cột trong tập dữ liệu¶

In [15]:
covid_df.info()
<class 'pandas.core.frame.DataFrame'>
Int64Index: 165251 entries, 0 to 166325
Data columns (total 16 columns):
 #   Column                             Non-Null Count   Dtype  
---  ------                             --------------   -----  
 0   Continent                          165251 non-null  object 
 1   Location                           165251 non-null  object 
 2   Date                               165251 non-null  object 
 3   TotalCases                         165251 non-null  float64
 4   NewCases                           165251 non-null  float64
 5   TotalCases_per_million             165251 non-null  float64
 6   NewCases_per_million               165251 non-null  float64
 7   TotalDeaths                        165251 non-null  float64
 8   NewDeaths                          165251 non-null  float64
 9   TotalDeaths_per_million            165251 non-null  float64
 10  NewDeaths_per_million              165251 non-null  float64
 11  TotalVaccinations                  165251 non-null  float64
 12  PeopleVaccinated                   165251 non-null  float64
 13  PeopleFullyVaccinated              165251 non-null  float64
 14  PeopleFullyVaccinated_per_hundred  165251 non-null  float64
 15  Population                         165251 non-null  float64
dtypes: float64(13), object(3)
memory usage: 21.4+ MB

Các thống kê cơ bản về dữ liệu¶

In [16]:
covid_df.describe()
Out[16]:
TotalCases NewCases TotalCases_per_million NewCases_per_million TotalDeaths NewDeaths TotalDeaths_per_million NewDeaths_per_million TotalVaccinations PeopleVaccinated PeopleFullyVaccinated PeopleFullyVaccinated_per_hundred Population
count 1.652510e+05 1.652510e+05 165251.000000 165251.000000 1.652510e+05 165251.000000 165251.000000 165251.000000 1.652510e+05 1.652510e+05 1.652510e+05 165251.000000 1.652510e+05
mean 2.505992e+06 1.142253e+04 28963.765115 163.534992 5.075483e+04 150.669212 446.055149 1.477463 4.703560e+07 2.292889e+07 1.691146e+07 7.905456 1.474332e+08
std 1.534516e+07 8.389329e+04 51560.618799 677.401746 2.840557e+05 782.870221 753.155897 4.852677 4.133728e+08 2.073323e+08 1.652634e+08 19.519701 7.054923e+08
min 0.000000e+00 0.000000e+00 0.000000 0.000000 0.000000e+00 0.000000 0.000000 0.000000 0.000000e+00 0.000000e+00 0.000000e+00 0.000000 4.700000e+01
25% 1.739000e+03 0.000000e+00 533.510000 0.000000 2.400000e+01 0.000000 6.466000 0.000000 0.000000e+00 0.000000e+00 0.000000e+00 0.000000 1.172369e+06
50% 2.464500e+04 7.400000e+01 4457.275000 10.425000 3.850000e+02 1.000000 72.774000 0.031000 0.000000e+00 0.000000e+00 0.000000e+00 0.000000 8.478242e+06
75% 2.891110e+05 1.029000e+03 36582.431500 97.800500 5.356000e+03 14.000000 581.888000 1.032000 5.999550e+04 1.400250e+04 0.000000e+00 0.000000 3.393361e+07
max 4.451295e+08 4.206334e+06 706541.904000 51427.491000 5.995245e+06 18020.000000 6322.263000 453.772000 1.085079e+10 4.976031e+09 4.400787e+09 121.450000 7.874966e+09

Trực quan hoá dữ liệu¶

In [17]:
def plot_hbar(df, col, number, title):
    figure = px.bar(df.sort_values(col).tail(number), x = col, y = 'Location', color = 'Continent', text = col, orientation='h', height=700,
                   color_discrete_sequence = px.colors.qualitative.Dark2)
    figure.update_layout(title=title, xaxis_title=col, yaxis_title="Country", 
                    yaxis_categoryorder = 'total ascending',
                    uniformtext_minsize=8, uniformtext_mode='hide')
    figure.show()
    
def plot_sub_lines(df, x, y1, y2, title):
    fig = make_subplots(rows=1, cols=2)
    fig.add_trace(
        go.Scatter(x=df[x], y = df[y1], mode="lines", name=y1),
        row = 1, 
        col = 1
    )
    fig.add_trace(
        go.Scatter(x=df[x], y = df[y2], mode="lines", name=y2),
        row = 1, 
        col = 2
    )
    fig.update_layout(height=600, width=1200, title_text=title)
    fig.show()
In [18]:
plot_sub_lines(covid_world_df, 'Date', 'TotalCases', 'TotalDeaths', "Biểu đồ thể hiện tổng số ca mắc và tử vong tích luỹ theo ngày kể từ đầu đại dịch")

Tổng số ca mắc và tử vong của dịch Covid-19 trên thế giới không ngừng tăng nhanh theo ngày kể từ đầu đại dịch đến nay. Nhưng tổng số ca tử vong lại ít hơn nhiều so với tổng số ca mắc, điều này có thể cho thấy tỉ lệ tử vong của dịch Covid-19 không cao, hoặc có thể là do độ bao phủ của vaccine trên toàn thế giới đang lớn dần nên số ca tử vong cũng tăng ít.

In [19]:
plot_sub_lines(covid_world_df, 'Date', 'NewCases', 'NewDeaths', "Biểu đồ thể hiện tổng số ca mắc và tử vong mới mỗi ngày")

Vào khoảng cuối năm 2021, biến thể Omicron xuất hiện làm gia tăng nhanh số ca nhiễm nhưng số ca tử vong của biến thể này không cao so với biến thể Delta xuất hiện trước đó. Có lẽ do khi biến thể Omicron xuất hiện thì độ bao phủ vaccine trên thế giới cũng đã tăng cao nên ta thấy số ca tử vong không nhiều.

In [20]:
covid_df_group = covid_df.copy()
covid_df_group = covid_df_group.groupby(by='Location').agg({'Location' : 'first','Continent' : 'first', 'TotalCases': 'max'})
covid_df_group = covid_df_group[covid_df_group.Continent != 0]

plot_hbar(covid_df_group, 'TotalCases', 20, 'Top 20 nước có tổng số ca mắc nhiều nhất')

United State là nước có nền kinh tế phát triển nhưng tổng số ca mắc lại nhiều nhất toàn cầu, hơn cả nước khởi phát dịch bệnh là Trung Quốc

In [21]:
covid_df_group = covid_df.copy()
covid_df_group = covid_df_group.groupby(by='Location').agg({'Location' : 'first','Continent' : 'first', 'TotalDeaths': 'max'})
covid_df_group = covid_df_group[covid_df_group.Continent != 0]

plot_hbar(covid_df_group, 'TotalDeaths', 20, 'Top 20 nước có tổng số ca tử vong nhiều nhất')

Số ca tử vong vì Covid-19 của United State lại dẫn đầu. Từ đó, ta có thể thấy sơ qua là số ca mắc và tử vong không phụ thuộc nhiều vào nền kinh tế các nước, nó còn phụ thuộc các yếu tố khác

In [22]:
covid_df_group = covid_df.copy()
covid_df_group = covid_df_group.groupby(by='Location').agg({'Location' : 'first','Continent' : 'first', 'PeopleFullyVaccinated': 'max'})
covid_df_group = covid_df_group[covid_df_group.Continent != 0]

plot_hbar(covid_df_group, 'PeopleFullyVaccinated', 20, 'Top 20 nước có tổng số người tiêm đủ liều vaccine nhiều nhất')
In [23]:
fig = go.Figure(data=[
                go.Scatter(
                    mode="lines+markers",
                    name="Total Deaths",
                    x=covid_world_df['Date'], 
                    y=covid_world_df['TotalDeaths'],
                    marker_color="crimson",
                ),
                go.Scatter(
                    mode="lines+markers",
                    name="Total Cases",
                    x=covid_world_df['Date'], 
                    y=covid_world_df['TotalCases'],
                    marker_color="royalblue"
                ),
    
                go.Scatter(
                    mode="lines+markers",
                    name="Total Vaccinated",
                    x=covid_world_df['Date'], 
                    y=covid_world_df['TotalVaccinations'],
                    marker_color="lightseagreen"
                ),
            ])

fig.update_layout(
        title = 'Tổng số vaccine được tiêm so với các số liệu về dịch Covid-19',
        xaxis_title="",
        yaxis_title="Count",
        hovermode="x",
    legend_orientation = 'h'
)
fig.show()

Độ bao phủ vaccine trên toàn thế giới ngày càng lớn dần, bỏ xa tổng số ca mắc và số ca tử vong. Điều này đang cho thấy tín hiệu tích cực trong việc phòng chống đại dịch Covid-19

4. Các phương pháp thống kê¶

Nhóm sử dụng các phương pháp thống kê:

  • Suy diễn mối quan hệ giữa hai biến
  • Kiểm định giả thuyết
  • Thống kế T-test...

5. Kết quả từ phương pháp thống kê¶

Kết quả từ phương pháp thống kê nhóm thấy hữu ích:

  • Giá trị p_value tính được từ các thống kê T-test để có thể đưa ra chấp nhận hoặc bác bỏ các giả thuyết
  • Hệ số tương quan R thể hiện mối quan hệ giữa hai biến số là mạnh hay yếu...